19 research outputs found

    Sur la Restauration et l'Edition de Vidéo : Détection de Rayures et Inpainting de Scènes Complexes

    Get PDF
    The inevitable degradation of visual content such as images and films leads to the goal ofimage and video restoration. In this thesis, we look at two specific restoration problems : the detection ofline scratches in old films and the automatic completion of videos, or video inpainting as it is also known.Line scratches are caused when the film physically rubs against a mechanical part. This origin resultsin the specific characteristics of the defect, such as verticality and temporal persistence. We propose adetection algorithm based on the statistical approach known as a contrario methods. We also proposea temporal filtering step to remove false alarms present in the first detection step. Comparisons withprevious work show improved recall and precision, and robustness with respect to the presence of noiseand clutter in the film.The second part of the thesis concerns video inpainting. We propose an algorithm based on theminimisation of a patch-based functional of the video content. In this framework, we address the followingproblems : extremely high execution times, the correct handling of textures in the video and inpaintingwith moving cameras. We also address some convergence issues in a very simplified inpainting context.La degradation inévitable des contenus visuels (images, films) conduit nécessairementà la tâche de la restauration des images et des vidéos. Dans cetre thèse, nous nous intéresserons àdeux sous-problèmes de restauration : la détection des rayures dans les vieux films, et le remplissageautomatique des vidéos (“inpainting vidéo en anglais).En général, les rayures sont dues aux frottements de la pellicule du film avec un objet lors de laprojection du film. Les origines physiques de ce défaut lui donnent des caractéristiques très particuliers.Les rayures sont des lignes plus ou moins verticales qui peuvent être blanches ou noires (ou parfois encouleur) et qui sont temporellement persistantes, c’est-à-dire qu’elles ont une position qui est continuedans le temps. Afin de détecter ces défauts, nous proposons d’abord un algorithme de détection basésur un ensemble d’approches statistiques appelées les méthodes a contrario. Cet algorithme fournitune détection précise et robuste aux bruits et aux textures présentes dans l’image. Nous proposonségalement une étape de filtrage temporel afin d’écarter les fausses alarmes de la première étape dedétection. Celle-ci améliore la précision de l’algorithme en analysant le mouvement des détections spatiales.L’ensemble de l’algorithme (détection spatiale et filtrage temporel) est comparé à des approchesde la littérature et montre un rappel et une précision grandement améliorés.La deuxième partie de cette thèse est consacrée à l’inpainting vidéo. Le but ici est de remplirune région d’une vidéo avec un contenu qui semble visuellement cohérent et convaincant. Il existeune pléthore de méthodes qui traite ce problème dans le cas des images. La littérature dans le casdes vidéos est plus restreinte, notamment car le temps d’exécution représente un véritable obstacle.Nous proposons un algorithme d’inpainting vidéo qui vise l’optimisation d’une fonctionnelle d’énergiequi intègre la notion de patchs, c’est-à-dire des petits cubes de contenu vidéo. Nous traitons d’abord leprobl’‘eme du temps d’exécution avant d’attaquer celui de l’inpainting satisfaisant des textures dans lesvidéos. Nous traitons également le cas des vidéos dont le fond est en mouvement ou qui ont été prisesavec des caméras en mouvement. Enfin, nous nous intéressons à certaines questions de convergencede l’algorithme dans des cas très simplifiés

    Stochastic Modeling and Resolution-Free Rendering of Film Grain

    Get PDF
    The realistic synthesis and rendering of film grain is a crucial goal for many amateur and professional photographers and film-makers whose artistic works require the authentic feel of analog photography. The objective of this work is to propose an algorithm that reproduces the visual aspect of film grain texture on any digital image. Previous approaches to this problem either propose unrealistic models or simply blend scanned images of film grain with the digital image, in which case the result is inevitably limited by the quality and resolution of the initial scan. In this work, we introduce a stochastic model to approximate the physical reality of film grain, and propose a resolution-free rendering algorithm to simulate realistic film grain for any digital input image. By varying the parameters of this model, we can achieve a wide range of grain types. We demonstrate this by comparing our results with film grain examples from dedicated software, and show that our rendering results closely resemble these real film emulsions. In addition to realistic grain rendering, our resolution-free algorithm allows for any desired zoom factor, even down to the scale of the microscopic grains themselves

    Infusion: Internal Diffusion for Video Inpainting

    Full text link
    Video inpainting is the task of filling a desired region in a video in a visually convincing manner. It is a very challenging task due to the high dimensionality of the signal and the temporal consistency required for obtaining convincing results. Recently, diffusion models have shown impressive results in modeling complex data distributions, including images and videos. Diffusion models remain nonetheless very expensive to train and perform inference with, which strongly restrict their application to video. We show that in the case of video inpainting, thanks to the highly auto-similar nature of videos, the training of a diffusion model can be restricted to the video to inpaint and still produce very satisfying results. This leads us to adopt an internal learning approch, which also allows for a greatly reduced network size. We call our approach "Infusion": an internal learning algorithm for video inpainting through diffusion. Due to our frugal network, we are able to propose the first video inpainting approach based purely on diffusion. Other methods require supporting elements such as optical flow estimation, which limits their performance in the case of dynamic textures for example. We introduce a new method for efficient training and inference of diffusion models in the context of internal learning. We split the diffusion process into different learning intervals which greatly simplifies the learning steps. We show qualititative and quantitative results, demonstrating that our method reaches state-of-the-art performance, in particular in the case of dynamic backgrounds and textures.Comment: 12 pages, 8 figure

    Patch-Based Stochastic Attention for Image Editing

    Full text link
    Attention mechanisms have become of crucial importance in deep learning in recent years. These non-local operations, which are similar to traditional patch-based methods in image processing, complement local convolutions. However, computing the full attention matrix is an expensive step with heavy memory and computational loads. These limitations curb network architectures and performances, in particular for the case of high resolution images. We propose an efficient attention layer based on the stochastic algorithm PatchMatch, which is used for determining approximate nearest neighbors. We refer to our proposed layer as a "Patch-based Stochastic Attention Layer" (PSAL). Furthermore, we propose different approaches, based on patch aggregation, to ensure the differentiability of PSAL, thus allowing end-to-end training of any network containing our layer. PSAL has a small memory footprint and can therefore scale to high resolution images. It maintains this footprint without sacrificing spatial precision and globality of the nearest neighbors, which means that it can be easily inserted in any level of a deep architecture, even in shallower levels. We demonstrate the usefulness of PSAL on several image editing tasks, such as image inpainting, guided image colorization, and single-image super-resolution. Our code is available at: https://github.com/ncherel/psalComment: 17 pages, 11 figure

    On Several Mathematical and Data-Driven Models for Image and Video Editing, Synthesis and Analysis

    No full text
    In this document, I present several mathematical and data-based models for image editing, synthesis and analysis. Firstly, I look at low-rank models used for background/foreground separation in videos. This model separates a video into the sum of a low-rank background and a sparse foreground, via an optimisation problem. I propose two algorithms using this model: firstly, a multi-temporal foreground separation algorithm and secondly a video segmentation method to identify regions where this model applies well. I then present a model to synthesis silver-halide film grain texture in digital images, based on stochastic geometry. This model is physically realistic and is able to synthesise grain at any output resolution, which gives high quality results. I also present an approximation to this model using Gaussian textures, with the goal of speeding up the synthesis algorithm.Finally, I discuss four works concerning deep generative models. The first is a mathematical analysis of how autoencoders, a type of deep learning model, can encode and decode simple geometric shapes. Secondly, I present a feed-forward neural network which edits the age of facial images. I then present an algorithm which uses a pre-trained deep generative model to edit general attributes of facial images. The method learns to navigate in the latent space of the generative model to achieve editing of the desired attribute. Finally, I present a ``PCA-Autoencoder'', which imitates the behaviour of the Principal Component Analysis (PCA) method, via a progressive increase of the latent space size, and a carefully chosen correlation loss function. I show how this can be used to carry out unsupervised editing of attributes in images.Dans ce document, je présente plusieurs modèles mathématiques, dont certains fondés sur des données, pour l'édition, la synthèse et l'analyse d'images. Tout d'abord, j'examine les modèles de rang faible utilisés pour la séparation arrière-plan/avant-plan dans les vidéos. Ce modèle sépare une vidéo en la somme d'un arrière-plan de rang faible et d'un avant-plan parsimonieux, via un problème d'optimisation. Je propose deux algorithmes utilisant ce modèle : premièrement, un algorithme de séparation d'avant-plan multi-temporel et deuxièmement une méthode de segmentation vidéo pour identifier les régions où ce modèle s'applique bien. Je présente ensuite un modèle de synthèse de texture de grain de film argentique dans les images numériques, fondé sur la géométrie stochastique. Ce modèle est physiquement réaliste et est capable de synthétiser le grain à n'importe quelle résolution d'image en sortie, ce qui donne des résultats de haute qualité. Je présente également une approximation de ce modèle à l'aide de textures gaussiennes, dans le but d'accélérer l'algorithme de synthèse. Enfin, je présente quatre travaux concernant les modèles génératifs profonds. Le premier est une analyse mathématique de la façon dont les auto-encodeurs, un type de modèle d'apprentissage profond, peuvent encoder et décoder des formes géométriques simples. Dans un second temps, je présente un réseau de neurones feed-forward qui édite l'âge des images de visages. Je présente ensuite un algorithme qui utilise un modèle génératif profond pré-entraîné pour éditer les attributs généraux des images de visages. Cette approche apprend à naviguer dans l'espace latent du modèle génératif afin de réaliser l'édition de l'attribut souhaité. Enfin, je présente un ``Autoencodeur-ACP'', qui imite le comportement de la méthode d'Analyse en Composantes Principales (ACP), via une augmentation progressive de la taille de l'espace latent, et une fonction de perte de corrélation bien choisie. Je montre comment cela peut être utilisé pour effectuer une édition non-supervisée d'attributs dans les images
    corecore